合并文件前比较字典
By Ruben Geert van den Berg
引言
使用 [ADD FILES](/spss-add-files-command)
合并数据可能会导致产生无意义的数据。当变量或值在不同的文件中具有不同的含义时,就会发生这种情况。通过比较不同文件的字典,可以快速检测到编码不一致的变量。
问题是什么?
当使用 ADD FILES
合并文件时,不一致的字典信息将被丢弃。例如,如果变量 v1
在一个文件中表示“性别(gender)”,而在另一个文件中表示“就业状况(employment status)”,就会发生这种情况。在这种情况下,指示性别的数值似乎表示就业状况,反之亦然。有关演示,请参阅 SPSS Add Files - Cautionary Note。
解决方案是什么?
SPSS 比较字典工具
- 将要合并的文件放在同一个文件夹中。确保此文件夹中没有其他
.sav
文件。 - 关闭所有打开的数据集。
- 确保已安装 SPSS Python Essentials。
- 下载并安装 SPSS Dictionary Checker。请注意,这是一个 SPSS 自定义对话框。
- 转到
实用程序(Utilities)
搜索语法文件(Search Syntax Files)
。将数据文件夹的路径复制粘贴到对话框中,然后选择是否要写入包含变量”保存列表(save list)“的 语法(syntax) 文件。单击粘贴(Paste)
并运行粘贴的语法。 - 单击该工具的
帮助(Help)
按钮将带您到本教程。 我们非常感谢您对此的反馈。
字典概述的解释
SPSS 比较字典工具结果
- 此命令将始终生成一个新的数据集,其中包含字典比较的概述。
- 每一行代表一个变量或一个值,包含值标签(value labels)和变量标签(variable labels),这些标签来自不同的源文件。
- 空单元格 表示变量不存在于一个或多个源文件中,或者未定义标签。
- 值不一致性 (
val_incon
) 是(不同标签的数量 - 1)。不将空单元格计为不同的标签。 - 变量不一致性 (
var_incon
) 是每个变量的所有值不一致性的总和。 - 变量按变量不一致性降序排序。也就是说,“最差”的变量被移动到数据集的顶部。
- 默认情况下,具有零变量不一致性的变量将从概述中删除。因此,完全一致的数据文件将导致生成一个空的新数据集。
- 该命令不区分大小写。在比较之前,所有标签都将转换为小写。
关于语法文件的说明
- 字典检查可能会写入一个新的 语法(syntax) 文件,其中包含所有编码一致的变量。
- 该文件名为 “savelist.sps”,将出现在源数据文件夹中。
- 如果此文件已存在,则将被覆盖。
- 在使用之前,可以向此“保存列表(save list)”添加或从中删除变量。
- 为了使用它,首先合并所有文件,然后在结果上运行此语法文件。它将删除所有不在“保存列表(save list)”中的变量。